Anthropic wprowadza nowy model sztucznej inteligencji, który „myśli” tak długo, jak chcesz

Firma Anthropic wypuszcza nowy, pionierski model sztucznej inteligencji o nazwie Claude 3.7 Sonnet, który ma „myśleć” o pytaniach tak długo, jak chcą tego użytkownicy.
Anthropic nazywa Claude 3.7 Sonnet pierwszym w branży „hybrydowym modelem rozumowania AI”, ponieważ jest to pojedynczy model, który może dawać zarówno odpowiedzi w czasie rzeczywistym, jak i bardziej przemyślane, „przemyślane” odpowiedzi na pytania. Użytkownicy mogą wybrać, czy aktywować zdolności „rozumowania” modelu AI, które skłaniają Claude 3.7 Sonnet do „myślenia” przez krótki lub długi okres czasu.
Model ten reprezentuje szersze wysiłki Anthropic na rzecz uproszczenia doświadczeń użytkownika w zakresie produktów AI. Większość dzisiejszych chatbotów AI ma przytłaczający selektor modeli, który zmusza użytkowników do wyboru spośród kilku różnych opcji różniących się kosztem i możliwościami. Laboratoria takie jak Anthropic wolałyby, abyś nie musiał o tym myśleć — w idealnym przypadku jeden model wykonuje całą pracę.
Claude 3.7 Sonnet zostanie udostępniony wszystkim użytkownikom i deweloperom w poniedziałek, poinformował Anthropic, ale tylko użytkownicy płacący za pakiety premium Claude chatbot firmy Anthropic uzyskają dostęp do funkcji rozumowania modelu. Użytkownicy darmowego Claude otrzymają standardową, nierozumującą wersję Claude 3.7 Sonnet, która według Anthropic przewyższa jej poprzedni model AI, Claude 3.5 Sonnet . (Tak, firma pominęła numer.)
Claude 3.7 Sonnet kosztuje 3 dolary za milion żetonów wejściowych (co oznacza, że możesz wprowadzić około 750 000 słów, więcej niż cała seria Władca Pierścieni, do Claude za 3 dolary) i 15 dolarów za milion żetonów wyjściowych. To sprawia, że jest droższy niż o3-mini firmy OpenAI (1,10 dolara za 1 mln żetonów wejściowych/4,40 dolara za 1 mln żetonów wyjściowych) i R1 firmy DeepSeek (0,55 dolara za 1 mln żetonów wejściowych/2,19 dolara za 1 mln żetonów wyjściowych), ale pamiętaj, że o3-mini i R1 to modele ściśle rozumujące — nie hybrydy takie jak Claude 3.7 Sonnet.

Claude 3.7 Sonnet to pierwszy model sztucznej inteligencji firmy Anthropic, który potrafi „rozumować”, co jest techniką , do której zwróciło się wiele laboratoriów zajmujących się sztuczną inteligencją w obliczu zaniku tradycyjnych metod poprawy wydajności sztucznej inteligencji .
Modele rozumowania, takie jak o3-mini, R1, Google Gemini 2.0 Flash Thinking i xAI Grok 3 (Think), zużywają więcej czasu i mocy obliczeniowej przed udzieleniem odpowiedzi na pytania. Modele te dzielą problemy na mniejsze kroki, co zwykle poprawia dokładność ostatecznej odpowiedzi. Modele rozumowania niekoniecznie myślą lub rozumują tak, jak zrobiłby to człowiek, ale ich proces jest modelowany po dedukcji.
Jak powiedziała w wywiadzie dla TechCrunch Diane Penn, szefowa działu badań i produktów w Anthropic, firma chciałaby, aby Claude sam decydował, jak długo powinien „myśleć” nad pytaniami, bez konieczności wcześniejszego wybierania opcji przez użytkowników.
„Podobnie jak ludzie nie mają dwóch oddzielnych mózgów do pytań, na które można odpowiedzieć natychmiast, w porównaniu do tych, które wymagają myślenia” — napisał Anthropic we wpisie na blogu udostępnionym TechCrunch — „my uważamy rozumowanie za po prostu jedną z możliwości, jaką powinien mieć model graniczny, aby płynnie integrować się z innymi możliwościami, a nie za coś, co powinno być zapewnione w oddzielnym modelu”.
Anthropic twierdzi, że pozwala Claude 3.7 Sonnet pokazać swoją wewnętrzną fazę planowania poprzez „widoczny notatnik”. Lee powiedział TechCrunch, że użytkownicy zobaczą pełny proces myślowy Claude'a dla większości podpowiedzi, ale że niektóre fragmenty mogą zostać zredagowane ze względów zaufania i bezpieczeństwa.

Anthropic twierdzi, że zoptymalizował tryby myślenia Claude'a pod kątem zadań z prawdziwego świata, takich jak trudne problemy z kodowaniem lub zadania agentowe. Deweloperzy korzystający z API Anthropic mogą kontrolować „budżet” na myślenie, wymieniając szybkość i koszt na jakość odpowiedzi.
W teście mierzącym zadania kodowania w rzeczywistym świecie, SWE-Bench, Claude 3.7 Sonnet uzyskał dokładność na poziomie 62,3%, podczas gdy model o3-mini firmy OpenAI uzyskał wynik 49,3%. W innym teście mierzącym zdolność modelu AI do interakcji z symulowanymi użytkownikami i zewnętrznymi interfejsami API w środowisku sprzedaży detalicznej, TAU-Bench, Claude 3.7 Sonnet uzyskał wynik 81,2%, podczas gdy model o1 firmy OpenAI uzyskał wynik 73,5%.
Anthropic twierdzi również, że Claude 3.7 Sonnet będzie odmawiał odpowiedzi na pytania rzadziej niż jego poprzednie modele, twierdząc, że model jest w stanie dokonywać bardziej niuansowych rozróżnień między szkodliwymi i łagodnymi podpowiedziami. Anthropic twierdzi, że zmniejszył liczbę niepotrzebnych odmów o 45% w porównaniu do Claude 3.5 Sonnet. Dzieje się to w czasie, gdy niektóre inne laboratoria AI przemyślają swoje podejście do ograniczania odpowiedzi swojego chatbota AI .
Oprócz Claude 3.7 Sonnet, Anthropic wydaje również narzędzie do kodowania agentowego o nazwie Claude Code. Narzędzie, które jest uruchamiane jako zapowiedź badań, pozwala deweloperom uruchamiać określone zadania za pomocą Claude bezpośrednio z terminala.
W demonstracji pracownicy Anthropic pokazali, jak Claude Code może analizować projekt kodowania za pomocą prostego polecenia, takiego jak „ Wyjaśnij tę strukturę projektu”. Używając prostego języka angielskiego w wierszu poleceń, programista może modyfikować bazę kodu. Claude Code będzie opisywać swoje edycje podczas wprowadzania zmian, a nawet testować projekt pod kątem błędów lub przesyłać go do repozytorium GitHub.
Jak powiedział rzecznik Anthropic w wywiadzie dla TechCrunch, Claude Code będzie początkowo dostępny dla ograniczonej liczby użytkowników na zasadzie „kto pierwszy, ten lepszy”.
Anthropic wypuszcza Claude 3.7 Sonnet w czasie, gdy laboratoria AI wysyłają nowe modele AI w szalonym tempie. Anthropic historycznie przyjmował bardziej metodyczne, skoncentrowane na bezpieczeństwie podejście. Ale tym razem firma chce przewodzić stawce.
Pytanie brzmi, jak długo. OpenAI może być blisko wydania własnego hybrydowego modelu AI ; CEO firmy, Sam Altman, powiedział, że pojawi się on w ciągu „miesięcy”.
techcrunch